目的:利用机器学习方法,我们的目标是在患者报告的糖尿病相关的推文中提取明确和隐含的造成关联,并提供一种更好地了解糖尿病在线社区内共享的意见,感受和观察的工具,从而从因果关系角度来。材料和方法:2017年4月至1月2021年间收集了3000多万糖尿病英语糖尿病相关推文。应用深度学习和自然语言处理方法,专注于具有个人和情感内容的推文。将一个原因效果 - Tweet数据集手动标记并用于训练1)微调BERTWEET模型,以检测包含因果关系2)的因果句,其中基于BERT的特征,以提取可能的原因效果关联。以半监督方法聚类原因和效果,并在交互式原因效果网络中可视化。结果:在不平衡数据集中的召回中检测到因果句,召回68%。具有基于BERT的特征的CRF模型表现出用于效果检测的微调伯特模型,具有68%的宏观召回。这导致了96,676个句子与原因效应关联。 “糖尿病”被鉴定为中央簇,然后被“死亡”和“胰岛素”。胰岛素定价相关原因经常与“死亡”相关。结论:开发了一种新颖的方法来检测因果句,并确定与糖尿病相关推文中的显式和隐含,单词和多字原因和相应的效果,利用基于伯伯的架构,并被视为原因效果网络。提取现实生活中的因果关系,患者报告社交媒体数据的结果提供了糖尿病研究中有用的互补信息来源。
translated by 谷歌翻译